北大与字节团队提出BranchGRPO,「树形分叉 + 剪枝」重塑扩散模型
近期,北京大学与字节团队提出了名为 BranchGRPO 的新型树形强化学习方法。不同于顺序展开的 DanceGRPO,BranchGRPO 通过在扩散反演过程中引入分叉(branching)与剪枝(pruning),让多个轨迹共享前缀、在中间步骤分裂,并通过
模型 北大 字节 剪枝 branchgrpo 2025-09-22 16:50 2
近期,北京大学与字节团队提出了名为 BranchGRPO 的新型树形强化学习方法。不同于顺序展开的 DanceGRPO,BranchGRPO 通过在扩散反演过程中引入分叉(branching)与剪枝(pruning),让多个轨迹共享前缀、在中间步骤分裂,并通过
模型 北大 字节 剪枝 branchgrpo 2025-09-22 16:50 2